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大 数据 背景 下 新 闻 编 辑 的 数据 挖掘 创新 素 能 研究 


摘 要 :; 信息 时 代数 据 资源 的 快速 膨胀 与 传播 ， 对 新 闻 编辑 来 说 ， 每 天 要 接触 和 阅读 大 量 的 信息 ， 这 些 庞 杂 的 信息 如 何 进行 
有 效 的 提炼 ， 往 往 考 验 着 新 闻 编辑 的 数据 挖掘 创新 能 力 。 新 闻 报 道 在 大 数据 时 代 下 ， 新 闻 生 产 与 呈现 方式 的 变化 ， 势 必 对 新 
闻 从 业者 提出 更 高 挑战 。 新 闻 编辑 作为 新 闻 报 道 的 主体 ， 更 需要 从 知识 结构 、 数 据 量 爆炸 式 增长 中 提升 数据 的 搜集 、 加 工 、 
呈现 水 平 ， 才 能 更 好 地 适应 媒介 新 环境 的 变化 ， 为 受众 提供 有 吸引 力 、 说 服 力 和 影响 力 的 新 闻 信 息 。 
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从 网 络 新 闻 到 自 媒体 的 全 面 履 盖 ， 学 界 在 面 对 爆 炸 式 增 
长 的 新 闻 类 数据 资源 时 ， 将 更 多 的 视线 聚焦 在 “大 数据 ”的 
挖 据 上 。 大 数据 已 经 成 为 当前 新 闻 编 辑 工作 者 需要 具备 的 独 
特 素 能 ， 要 能 够 从 众多 的 新 闻 数 据 中 搜集 和 提炼 新 闻 点 ， 并 
将 之 与 现代 媒介 新 闻 传播 生产 方式 相 融 合 。 数 据 新 闻 作 为 业 
界 探 讨 的 热点 议题 ， 源 自 “数据 新 闻 学 ”概念 ， 并 由 此 延伸 
至 新 闻 传 播 实 践 中 。 新 闻 编 辑 是 对 新 闻 信息 进行 编辑 加 工 的 
人 ， 以 新 闻 职 业 嗅 觉 来 参与 到 新 闻 媒 介 形 态 的 变化 中 ， 而 随 
着 大 数据 新 闻 信息 采集 的 复杂 性 ， 新 闻 编 辑 的 数据 挖 气 素 能 
就 变 得 尤为 重要 。 

1. 大 数据 下 新 闻 编 辑 工 作 面 临 的 挑战 

在 《数据 新 闻 手 册 》 中 对 “数据 新 闻 学 ”的 解释 为 “ 基 
于 数据 的 抓 取 、 挖 气 、 统 计 、 分 析 和 可 视 化 呈现 的 新 型 新 
闻 报 道 方式 ， 其 核心 就 是 用 数据 报道 新 闻 ”。 事实 上 , 早 
在 2012 年 《纽约 时 报 》 将 “大 数据 ”解释 为 “基于 数据 和 
分 析 做 出 的 决策 ”， 而 非 “ 基 于 经 验 和 直觉 ”。 从 近年 来 
各 国 新 闻 主流 媒体 对 数据 新 闻 学 的 研究 与 实践 来 看 ， 业 界 
和 学 界 都 提出 了 探索 与 尝试 。 比如 我 国 的 新 浪 网 “图 解 天 下 ” 
栏目 、 网 易 的 “ 数 读 ”栏目 ， 搜 狐 的 “数字 之 道 ” 等 ， 都 
是 建立 在 数据 新 闻 报 道 基 础 上 。 作 为 新 闻 编 辑 工作 者 ， 在 
看 对 大 数据 时 代数 据 新 闻 学 的 挑战 中 ， 如 何 快 速 发 现 信息 
的 价值 ? 如 何 挖 气 有 意义 的 信息 ?如 何 从 海量 的 数据 资源 
中 ， 利 用 不 同 的 工具 来 分 析 和 梳理 新 闻 事实 ? 重 构 新 闻 编 
辑 的 数据 挖掘 创新 能 力 就 显得 尤为 重要 。 一 是 受众 对 新 闻 
信息 多 样 化 需求 , 对 来 自 电视 、 报 纸 、 网 络 的 各 类 信息 资源 ， 
迫切 需要 从 尽 可 能 少 的 时 间 里 来 获得 “碎片 化 阅读 ”“ 快 
餐 式 阅读 ”。 美 国有 学 者 机 构 对 “读者 如 何 读 报 ” 进 行 调 
研发 现 ， 其 中 3/4 的 读者 关注 的 是 图 片 和 图 示 ; 1/2 的 读者 
关注 的 是 标题 ;1/3 的 读者 关注 的 是 提要 和 图 片 说 明 ; 1/4 
的 读者 关注 的 是 文字 报道 。 可 见 ， 从 读者 的 阅读 诉求 上 ， 
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图 片 、 图 示 、 图 表 等 表现 形式 更 具有 吸引 力 ， 新 闻 编 辑 应 
该 有 意识 地 从 营造 “ 轻 量 化 阅读 体验 ”中 ， 尽 可 能 地 融入 
易 履 、 易 看 、 易 理解 的 图 示 化 信息 。 二 是 新 闻 编 辑 自 身 在 
面 对 大 数据 时 ， 要 能 够 化 繁 为 简 、 化 抽象 为 具体 ， 简 言 之 ， 
就 是 要 能 够 从 丰富 的 媒介 信息 资源 中 挖掘 有 价值 的 、 有 意 
义 的 新 闻 信息 及 表现 形式 。 作 为 面向 社会 熏 论 的 新 闻 编 辑 ， 
首先 要 能 够 从 复杂 的 新 闻 事实 中 ， 讲 述 好 新 闻 问 题 ， 对 整 
个 新 闻 事件 进行 清晰 的 、 动 态 的 展示 。 学 者 杰 夫 : 麦 吉 在 
探讨 新 闻 的 媒介 责任 时 提出 “新 闻 是 面向 公众 解释 复杂 难 
收 数 据 的 过 程 ， 新 闻 编 辑 的 任务 就 是 从 数据 中 来 提供 易于 
理解 、 具 有 说 服 力 的 数据 新 闻 ”。 因 此 ， 新 闻 编 辑 的 数据 
挖掘 创新 能 力 ， 需 要 从 自我 知识 结构 、 数 据 挖掘 能 力 中 来 
提供 有 价值 的 新 闻 信 息 ， 呈 现 给 媒介 受众 。 
2. 大 数据 下 新 闻 编辑 的 数据 挖掘 创新 素 能 

数据 新 闻 挖掘 的 源泉 是 数据 ， 而 数据 挖掘 创新 能 力 需 要 
从 搜集 、 加 工 、 呈 现 三 个 阶段 来 完成 。 
2. 1 新 闻 编辑 的 数据 搜集 素 能 

数据 本 身 是 多 元 的 ， 数 据 新 闻 是 以 公开 为 基础 的 各 类 新 
闻 数 据 ， 而 新 闻 编 辑 在 面 对 新 闻 数 据 时 ， 又 很 容易 受到 海量 
数据 的 影响 而 迷失 方向 。 如 何 开展 数据 搜集 ， 需 要 从 三 种 炬 
道 来 实现 。 一 是 利用 网 络 搜索 引擎 ， 比 如 百度 、 谷 歌 等 搜索 
工具 ; 二 是 利用 专业 数据 库 ， 比 如 一 些 新 闻 类 数据 中 心 数据 
库 ; 三 是 网 络 论坛 及 其 他 网 络 新 闻 数 据 站 点 。 对 于 搜索 引擎 
的 使 用 是 最 常见 也 是 最 广泛 的 一 种 方式 ， 很 多 新 闻 编 辑 都 会 
使 用 ， 但 对 于 新 闻 搜 索 实践 中 的 “关键 词 ”选择 ， 往 往 考查 
着 新 闻 编 辑 的 新 闻 噢 觉 力 。 另 外 ， 在 搜索 引擎 高 级 检索 功能 
的 使 用 ， 比 如 附加 .+ mdb 搜索 Access 数据 库 ， 利 用 .xls 来 
搜索 相关 的 数据 表格 等 。 借 助 于 网 络 论坛 、 网 络 数据 站 点 来 
搜集 新 闻 数 据 ， 或 者 通过 网 络 调查 网 站 及 网 络 投 票 平台 来 获 
取 数 据 ， 都 是 建立 在 新 闻 调 查 问卷 基础 上 ， 以 某 些 主题 的 论 


36 | 研究 传媒 与 发 展 


坛 为 表现 形式 ， 从 而 获得 最 新 的 数据 资源 。 新 闻 编辑 在 搜集 
数据 时 ， 渠 道 并 非 仅 限于 此 ， 还 可 以 拓宽 到 其 他 各 类 专业 数 
据 库 。 
2. 2 新 闻 编辑 的 数据 加 工 素 能 

搜集 数据 只 是 新 闻 编 辑 获 取 更 多 新 闻 资 源 的 基础 和 前 
提 ， 如 何 将 这 些 分 散 的、 独立 的 、 隐 匿 的 数据 进行 整合 ， 
从 中 提炼 出 有 价值 的 新 闻 数 据 信息 ， 就 需要 新 闻 编 辑 具 
有 相应 的 数据 加 工 素 能 。 数 据 加 工 素 能 本 质 上 是 从 庞杂 的 
数据 资源 中 来 提炼 信息 点 , 为 受众 提供 有 价值 的 新 闻 内 容 ， 
让 新 闻 传 播 更 具有 可 读 性 。 面 对 海量 新 闻 数 据 ， 新 闻 编辑 要 
善于 应 用 数据 整合 方法 。 比 如 对 一 些 不 必要 大 数据 进行 剔 
除 ， 保 留 有 效 的 精 要 数据 ， 而 且 是 准确 无 误 的 ; 对 相关 数 
据 的 格式 进行 统一 ， 特 别 是 对 于 一 些 数据 库 表 信息 进行 有 
效 转 换 ， 使 其 具备 可 读 性 、 完 备 性 ; 对 于 一 些 抽象 的 数据 
资源 ， 还 需要 通过 换算 、 对 比 等 方法 来 活用 。 比 如 一 些 统 
计 资 料 中 的 数据 , 需要 从 相关 数据 库 的 对 比 性 中 来 条 理化 ， 
避免 数据 的 匈 杂 、 重 复 。 加 工 数据 的 过 程 是 新 闻 编 辑 需 要 
谨慎 而 严肃 对 待 的 ， 特 别 是 一 些 概 念 性 数据 、 逻 辑 性 数据 ， 
要 避免 出 现 混杂 或 错误 。 对 于 这 些 报道 中 的 编辑 加 工 问 题 ， 
也 是 常见 的 错误 , 有 失 科 学 性 。 通常 情况 下 , 在 新 闻 报 道中 ， 
引入 数据 时 往往 是 对 新 闻 核 心 内 容 的 评述 ， 新 闻 编辑 在 数 
据 加 工时 ， 更 应 该 从 严肃 、 认 真 、 准 确 、 客 观 上 来 把 好 关 ， 
要 提高 职业 警惕 性 , 要 减少 和 消除 各 类 数据 引用 错误 问题 ， 
保障 新 闻 报 道 的 准确 性 、 科 学 性 。 对 于 新 闻 数 据 的 加 工 环节 ， 
新 闻 编 辑 要 对 一 些 引用 的 数据 ， 特 别 是 一 些 数字 进行 严格 
审查 ， 增 强 数 据 敏 感性。 
2. 3 新 闻 编 辑 的 数据 呈现 素 能 
新 闻 报 道 的 最 终结 果 是 为 受众 呈现 可 读 性 强 的 新 闻 稿 
件 ， 以 及 可 视 化 新 闻 报 道 等 内 容 。 这 些 新 闻 信息 ， 所 涉及 
的 技术 领域 较为 宽泛 ， 有 图 形 类 数据 呈现 方式 ， 有 计算 表格 
类 数据 等 。 面 对 大 数据 时 代 下 不 同 受众 对 新 闻 获 取 渠 道 的 多 
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样 性 ， 在 呈现 新 闻 数 据 可 视 化 过 程 中 ， 要 突出 新 闻 信 息 数 
据 、 新 闻 动 态 图 表 的 有 序 呈 现 。 比 如 新 闻 编 辑 要 能 够 利用 可 
视 化 技术 ， 将 抽象 的 、 复 杂 的 数据 转换 为 生动 的 、 趣 味 性 
的 新 闻 报 道 。 在 一 些 可 视 化 技术 应 用 中 ， 新 闻 编 辑 要 不 断 
提升 自我 的 技术 能 力 。 比 如 在 ManyEyes 网 站 ， 只 要 上 传 相 
关 数 据 ， 就 可 以 获得 可 视 化 图 表 ; 当然 ， 在 呈现 图 表 方 式 
上 ，ManyEyes 网 站 还 提供 多 种 可 视 化 方案 ， 如 Word 格式 、 
TreeMap 层次 格式 ， 以 及 可 视 化 人 物 关系 网 络 图 等 。 再 者 ， 
谷歌 也 推出 了 可 视 化 数据 服务 功能 ， 可 以 实现 对 相关 数据 的 
批量 处 理 ， 如 筛选 、 分 类 、 人 合并、 聚合 等 。 这 些 免费 的 数据 
呈现 工具 和 软件 ， 为 新 闻 编 辑 优化 新 闻 数 据 呈 现 方式 提供 了 
便利 。 
3. 结语 

当然 ， 新 闻 编 辑 在 面 对 数 据 新 闻 学 的 发 展 中 ， 还 要 从 
自我 知识 结构 、 编 辑 处 理 技 能 学 习 和 培训 中 ， 增 强 自我 对 
新 闻 的 敏锐 力 、 挖 气力 、 表 现 力 。 比 如 学 习 一 些 艺 术 设 计 
软件 技巧 , 增强 自我 新 闻 的 版 面 设计 效果 , 注重 色彩 的 搭配 ， 
调整 不 同 新 闻 内 容 的 均衡 性 ， 让 自己 的 新 闻 更 具有 魅力 和 
张力 。 
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